全部
精华
评论
北邦

回复于 2023-11-26 14:40

英伟达新发布一站式解决方案:RTX Workstation

英伟达新发布一站式解决方案—— RTX Workstation: - 支持最多4张RTX 6000 GPU - 可在15小时内完成8.6亿token的GPT3-40B的微调 - Stable Diffusion XL每分钟生成40张图片,比4090快5倍每分钟 40张,接近1秒一张,SDXL现在 一张图的起码尺寸是1024x1024这次的效能提升可见一斑。未来正在以可见的速度奔来~
5
3
我是钢蛋儿

发布于 2023-07-07 08:38

《封神》九尾狐造型,颇具争议,是炒作博眼球还是网友太挑剔

相关链接:https://m.toutiao.com/article/7252281000070283834/?app=news_article×tamp=1688690130&use_new_style=1&req_id=20230707083530C081F169B81B6ADF70D9&group_id=7252281000070283834 - 这次轮到《封神》导演翻车了,人类哺乳器官一出,观众直呼辣眼睛 - 今日头条
2
评论
北邦

回复于 2023-07-01 16:11

【爱智岛*站酷】AIGC大咖访谈(上)

本期直播主题:AIGC爆火,设计师又得到了什么? 本期嘉宾: 骨灰级创意人、AI数字艺术家 北邦 创意技术专家、实验编程创始人 Contra 罗霄 《人类发明家》IP创始人、科幻小说作家、建筑设计师 Enki 你将听到: 1、AIGC是什么?它的出现对设计师的创意思维与表达呈现将带来怎样的改变? 2、在未来设计中,AI智能将会颠覆甚至突破人类特有的创造属性吗? 3、在有需求目的的设计与无需求的纯艺术的表达应用中,生成式AI艺术创作应用在思路、技法上的异同点分别是什么? 4、生成式AI应用将如何辅助多场景IP的设计呈现?
6
2
星尘

发布于 2023-06-21 21:02

无提示词可控 AI 一键出图,设计师高效创作神器!

注!此文为转帖,原文地址:https://www.bilibili.com/video/BV1314y1U7ZS/?spm_id_from=333.999.0.0&vd_source=5fd1319339e9519c8c6e80b5d4693718 作者说明:1.一键AI出图功能已上线,请浏览B站主页获取官网地址下载最新版本体验。2. Found 绝大多数功能无需登录注册即开即用、永久免费。3.目前云端使用需要消耗积分,Pro会员会赠送100积分。本地版本可以无限使用,由于本地版需更多测试不同电脑系统环境,我们预计于七月底八月左右推出,请耐心等待。届时还会推出更多新功能新玩法。
6
评论
星尘

回复于 2023-06-11 10:43

简单涂鸦 生成 360 度3D全景 【Skybox 使用体验 】

注!此文为转帖,原文地址:https://www.bilibili.com/video/BV1Zz4y1b7My/?spm_id_from=333.999.0.0&vd_source=5fd1319339e9519c8c6e80b5d4693718 Skybox 使用体验 | 简单涂鸦 生成 360 度3D全景。 工具链接:https://skybox.blockadelabs.com /
4
1
北邦

回复于 2023-06-05 14:59

StyleDrop来袭,AI一张图片变换风格图像 !

注!此文为转帖,原文地址:https://mp.weixin.qq.com/s?__biz=MjM5MDQ1NzE0MQ==&mid=2247489027&idx=1&sn=e39c1ca9ca41c4f34b0eb690657e146d&chksm=a645da599132534f9d6227a062ad27dceb4a60cac16ab29121224774578b76d5c71c634c6f30&mpshare=1&scene=23&srcid=0603z6lhXFxES0irtz6Wlvpn&sharer_sharetime=1685760711835&sharer_shareid=e7ef252066157e74070a619de2d843b8#rd Google 最新发布了一个叫StyleDrop的项目,它利用Muse和CLIP这两个人工智能模型来实现一种新的文字转图像技术。这个技术可以高度仿真地生成特定风格的图片。StyleDrop的用途非常广泛,它可以根据用户提供的细微的风格差别和细节,像是配色,阴影,图案,本地特色和全球通用的效果来生成图片。StyleDrop的工作原理是通过调整极少的参数(模型总参数的1%都不到)来高效学习新的风格,然后通过人工或自动的反馈迭代训练来提高质量。更棒的是,即便用户只提供一张指定风格的图片,StyleDrop也可以产生令人印象深刻的结果。广泛的研究显示,在文字转图像模型中调整风格这一任务上,StyleDrop的性能明显优于其他方法,包括DreamBooth、Imagen上的Textual Inversion和Stable Diffusion。论文地址:https://arxiv.org/abs/2306.00983 从单个图像生成程式化的文本到图像StyleDrop可以参考单个图像的任何样式,从文本提示中直接生成高质量图像。只需使用自然语言样式描述(例如,“融化的金色3d渲染样式”)。程式化字符渲染StyleDrop可以生成由一张参考图片描述的统一风格的字母图片。在训练和生成图片时,自然语言的风格描述(比如“抽象的彩虹色流动的烟雾波浪设计”)会附加到内容描述中。与您的风格助理合作StyleDrop非常易于使用您自己的品牌资产进行训练,可以快速帮助您用自己的风格创建原型创意。在训练和生成图片时,自然语言中的风格描述也会附加到内容描述中。 与扩散模型微调的比较StyleDro模型的现有方法,下面第一行是参考样式,下面分别是StyleDrop、Dreambooth、LoRA、TextInversion、PEZ各种方法的对比效果。可以明显看出StyleDrop的效果远远强于其他方法。这项技术非常令人兴奋,一旦进入实用阶段,将极大的提高风格迁移的效率。从以往的TextInversion、Dreambooth、Lora、ControlNet Reference,再到StyleDrop,现在我们已经进化到一张图片即可完成>风格的迁移,风格样式的迁移越来越简单,越来越高效。
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
  • 共17张
6
1
北邦

发布于 2023-05-23 00:45

【新技术】照片到视频,就像航拍一样柔滑:NeRF origina

由原团队建造的NeRF在2023年取得了快速进展。Built by the original team, https://aitool.ai/tag/nerf NeRF in 2023 has made rapid progress.2020年,加州大学伯克利分校和谷歌的研究人员开启了一项将2D图像转换为3D模型NeRF的重要研究。它可以使用多个静态图像生成多视角的逼真3D图像,生成效果非常惊人:In 2020, researchers from the University of California at Berkeley and Google opened an important research on converting 2D images into 3D models-NeRF. It can use several static images to generate realistic 3D images with multiple viewing angles, and the generation effect is very amazing:三年后,该团队做出了更惊人的效果:在一项名为Zip-NeRF的研究中,他们完全还原了一个家庭的所有场景,就像无人航拍的效果一样。Three years later, the team made a more amazing effect: In a study called Zip-NeRF, they completely restored all the scenes of a family, just like the effect of unmanned aerial photography.作者介绍了Zip-NeRF模型将尺度感知抗混叠NeRF和基于快速网格的NeRF训练相结合,解决了神经辐射场训练中的混叠问题。与以前的技术相比,Zip-NeRRF的错误率降低了8-76%,训练速度提高了22倍。The author introduces that Zip-NeRF model combines scale-aware anti-aliasing NeRF and fast grid-based NeRF training to solve the aliasing problem in nerve radiation field training. Compared with previous technologies, the error rate of Zip-NeRF is reduced by 8-76%,The training speed is increased by 22 times. 这项技术有望应用于虚拟现实领域,例如参观在线博物馆和参观在线房屋。This technology is expected to be applied in VR field, such as visiting online museums and visiting online houses.以下是论文的详细内容。The following are the details of the paper.Paper address:https://arxiv.org/pdf/2304.06706.pdf Project address:https://jonbarron.info/zipnerf/ 论文概述 Paper Overview在神经辐射领域(NeRF),训练神经网络来模拟三维场景的体积表示,以便通过光线跟踪呈现场景的新视图。NeRF已被证明是一种有效的任务工具,如视图合成、媒体生成、机器人和计算摄影。In the neural radiation field (NeRF), a neural network is trained to simulate the volume representation of a three-dimensional scene, so that a new view of the scene can be presented through ray tracing. NeRF has proven to be an effective task tool, such as View synthesis, media generation, robots, and computational photography.Mip NeRF 360和即时NGP(iNGP)都基于NeRF的形式:通过投影3D射线并沿着光距离t的位置渲染像素。这些特征被输入到神经网络,渲染后显示颜色。重复投影与训练图像中像素对应的光,并最小化(通过梯度下降)每个像素的渲染颜色与观察到的颜色之间的误差,以完成训练。Mip-NeRF 360 and instant-NGP(iNGP) are both based on the form of NeRF: pixels are rendered by projecting 3D rays and along the position of light distance t. These features are input to the neural network, and color is displayed after rendering. Repeatedly projecting the light corresponding to the pixels in the training image,And minimize (by gradient descent) the error between the rendering color of each pixel and the observed color to complete the training.Mip-NeRF 360和即时NGP在沿射线的坐标参数化方面有显著差异。在Mip-NeRF360中,射线被细分为一组区间[t_I,t_I+1],每个区间代表一个圆锥体,其形状类似于多个高斯值,该高斯值的预期位置编码用于大MLP[3]的输入。相比之下,即时NGP将位置的本征值插值到不同大小的三维网格层次中,然后使用一个小的MLP来生成特征向量。作者提出的模型结合了mip-NeRF360的整体框架和即时NGP的特征方法。然而,盲目地直接结合这两种方法会引入两种混叠形式:Mip-NeRF 360 and instant-NGP have significant differences in coordinate parameterization along rays. In mip-NeRF 360, a ray is subdivided into a set of intervals [t_ I, t_ I +1], each representing a cone, whose shape is similar to multiple Gaussian values,The expected position encoding of this Gaussian value is used for the input of a large MLP [3]. In contrast, instant-NGP interpolates the eigenvalues of positions into a three-dimensional mesh hierarchy of different sizes, and then uses a small MLP to generate eigenvectors. The model proposed by the authors combines the overall framework of the mip-NeRF360 and the characteristic method of the instant-NGP,However, blindly and directly combining these two methods will introduce two aliasing forms:1.即时NGP特征网格方法与mip-nerf360比例传感集成位置编码技术不兼容。因此,即时NGP生成的特征相对于空间坐标是别名,从而生成别名渲染。在下面的介绍中,研究人员通过引入类似的多采样解决方案来计算预过滤的瞬时NGP特性,从而解决了这个问题。 2.即时NGP的使用显著加速了训练,但它暴露了在线蒸馏方法mip-nerf360的一个问题,这导致了高度可见的“z混叠”(沿光线的混叠),其中场景内容随着相机的移动而不稳定地消失。在下面的介绍中,研究人员使用了一种新的损失函数来解决这个问题,该函数在在线蒸馏过程中沿着每条射线进行预过滤。1. The instant-NGP feature mesh method is incompatible with the mip-nerf360 scale sensing integrated position coding technology. Therefore, the features generated by instant-NGP are aliases relative to spatial coordinates, thus generating an alias rendering. In the following introduction,Researchers solved this problem by introducing a similar multi-sampling solution for calculating the instant-NGP characteristics of prefiltering.2. The use of instant-NGP significantly accelerates the training, but it exposes a problem mip-nerf360 the online distillation method, which leads to highly visible “z-aliasing” (aliasing along the ray), in which the scene content disappears unsteadily with the movement of the camera.In the following introduction, researchers use a new loss function to solve this problem, which prefilters along each ray during online distillation.方法概述 1.空间消除混叠: Mip-NeRF中使用的特征类似于由子元素的内部坐标位置编码的积分,并且在NeRF中是沿着圆锥的圆锥。这导致当每个正弦曲线的周期大于高斯曲线的标准偏差时,Fu Liye特征的幅度非常小,这些特征仅代表子体积在大于子体素大小的波长下的空间位置。由于该特征同时编码位置和尺度,使用它的MLP可以学习呈现抗锯齿图像的3D场景的多尺度表示。像iNGP这样的基于网格的表示不查询子体素,而是在单个点使用三线性插值来构造MLP的特征,这将导致训练的模型无法推断不同的尺度或别名。Method overview1.Spatial Anti-Aliasing:The feature used in the Mip-NeRF is similar to the integral encoded by the position of the internal coordinates of the child element, and in NeRF is a cone along a cone. This results in that when the period of each sine curve is greater than the standard deviation of Gaussian curve, the amplitude of the Fu Liye features is very small-these features only represent the spatial position of the sub-volume at the wavelength greater than the size of the sub-voxel.Because this feature encodes position and scale at the same time, the MLP using it can learn the multi-scale representation of 3D scenes presenting anti-aliasing images. Grid-based representations like iNGP do not query subvoxels, but use trilinear interpolation at a single point to construct features for MLP,This will cause the trained model to be unable to infer different scales or aliases.为了解决这个问题,研究人员使用多重采样和特征加权,将每个圆锥体变为一组各向同性高斯:首先将各向同性语素转换为一组点来近似其形状,然后将每个点视为各向同性高斯尺度。这种各向同性假设可以利用网格中的值为零均值的事实来近似特征网格在子体素上的实积分。通过对这些加权后的特征进行平均,具有尺度感知的预过滤特征是从iNGP网格中获得的。有关可视化的更多信息,请参阅下图。In order to solve this problem, the researchers changed each cone into a set of isotropic Gauss, using multi-sampling and feature weighting: the isotropic morphemes are first converted into a set of points to approximate its shape, and then each point is considered as an isotropic Gaussian scale. This isotropic assumption can take advantage of the fact that the value in the mesh is zero mean to approximate the real integral of the feature mesh on the sub-voxel.By averaging these downweighted features, pre-filtering features with scale perception are obtained from the iNGP grid. For more information about visualization, see the following figure.抗锯齿问题在一些图形文献中已经得到了深入的讨论。Mip-map(Mip-nerf同名)预先计算出一种可以快速消除锯齿的结构,但目前尚不清楚如何将这种方法应用于iNGP底部的哈希数据结构。超采样技术采用了直接增加样本数量的方法来抵御混叠,产生了大量不必要的样本。这种方法类似于mip-map,但成本更高。多采样技术构建一组样本,然后将这些样本的信息聚合到聚合表示中,这提供了一个复杂的渲染过程——一种类似于作者方法的策略。另一种相关方法是椭圆加权平均,其类似于沿椭圆长轴排列的各向同性样品的椭圆核。The problem of anti-aliasing has been deeply discussed in some graphic literature. Mip-map(Mip-nerf name with the same name) pre-calculates a structure that can quickly reverse aliasing, but it is not clear how to apply this method to the hash data structure at the bottom of iNGP. Hypersampling technology adopts a method of directly increasing the number of samples to resist aliasing,A large number of unnecessary samples are generated. This method is similar to mip-map, but costs more. The Multi-sampling technology constructs a group of samples and then aggregates the information of these samples into the aggregate representation, which provides a complex rendering process-a strategy similar to the author’s method.Another correlation method is the elliptic weighted average, which is similar to the elliptic nucleus of an isotropic sample arranged along the long axis of the ellipse.给定沿射线的间隔[t_I,t_(I+1)),研究人员希望构建一组近似圆锥形的多样本形状。就像在有限样本预算的图形应用程序的多样本程序中一样,他们为自己的用例手动设计了一个多样本模式,沿着螺旋分配n个点,它使m个点围绕射线轴循环,并沿着t形成线性间隔:Given the interval along the ray [t_ I, t_ (I +1)), the researchers want to construct a set of multi-sample shapes approximately conical. Just as in the multi-sampling program of graphic application with limited sample budget, they manually designed a multi-sampling mode for their use cases, allocating n points along a spiral,It makes m points circulate around the axis of the Ray and form a linear interval along t:这些三维坐标被旋转成世界坐标,乘以标准正交基。这个标准正交基的第三个向量是光线的方向,它的前两个向量是垂直于视图方向的任何帧,然后按射线的原点移动。当n≥3,n和m是公共素数时,确保每组多个样本的平均值和协方差与每个样本的平均数和协方差精确匹配,类似于mip-NeRF中的高斯采样。These three-dimensional coordinates are rotated into world coordinates, multiplied by a standard orthogonal basis. The third vector of this standard orthogonal basis is the direction of the ray, and its first two vectors are any frame perpendicular to the direction of the view, and then move by the origin of the ray. When n≥3 and n and m are common prime numbers, ensure that the mean and covariance of each group of multiple samples exactly match the mean and covariance of each sample,Similar to Gaussian Sampling in mip-NeRF.研究人员使用这n个多重样本作为各向同性高斯分布的平均值,每个样本的标准偏差为__J。他们将speech_J设置为rt,并传递一个超级参数(实验中为0.35)。因为iNGP网格要求输入坐标位于有界区域,研究人员应用了mip-NeRF 360的收缩函数。由于这些高斯分布是各向同性的,我们可以使用mip-NeRF360使用的卡尔曼滤波器方法的简化和优化版本来执行这种收缩。有关更多信息,请稍后添加。 为了对每个单个多样本进行逆别名插值,研究人员以一种新的方式重新加权每个尺度上的特征,这与每个网格单元中每个样本的各向同性高斯拟合度成反比:如果高斯值远大于插值单元,插值特征可能是不可靠的,那么应该减少权重。Mip-NeRF的IPE特征也有类似的解释。 在iNGP中,每个坐标x的插值是通过缩放网格的线性大小n来实现的,并对V_l进行三线性插值以获得c长度向量。相反,研究人员对一组平均值和标准偏差为_J的多采样各向同性高斯分布进行插值。通过对高斯CDF的推断,我们可以计算出V中[1/2n,1/2n]^3内每个高斯PDF的分数,该分数被插值为尺度相关的递减权重因子ω_J,l.研究人员应用权重衰减来鼓励V值符合正态分布和零均值。现单个零制服等L,可能的项目总数。Researchers used these n multiple samples as the mean of isotropic Gaussian distribution, and the standard deviation of each sample was__J. They set speech_j to rt and passed a super parameter (0.35 in the experiment). Because the iNGP grid requires the input coordinates to be located in a bounded area,Researchers applied the contraction function of mip-NeRF 360. Because these Gaussian distributions are isotropic, we can use the simplified and optimized version of the Kalman filter method used by mip-NeRF 360 to perform this contraction. For more information, please add it later.In order to carry out inverse alias interpolation for each single multi-sample, researchers re-weighted the features on each scale in a new way, which is inversely proportional to the isotropic Gaussian fitting degree of each sample in each grid cell: If the Gaussian value is far greater than the interpolation cell, the interpolation features may be unreliable, then the weighting should be reduced.The IPE features of Mip-NeRF are similarly explained.In iNGP, the interpolation of each coordinate x is achieved by scaling with the linear size n of the mesh, and conducting trilinear interpolation on V_l to obtain a c-length vector. On the contrary, researchers interpolate a set of multi-sampling isotropic Gaussian distributions with mean and standard deviation of_J.Through the inference of Gaussian CDFs, we can calculate the fraction of each Gaussian PDF within [1/2n,1/2n]^ 3 in V, which is interpolated into a scale-related decreasing weight factor ω_j,l. Researchers apply weight attenuation to encourage the value in V to conform to normal distribution and zero mean.现 Individual zero-uniform, etc. L., Possible total number of items.尽管前面提到的精细多采样和加权方法是减少空间混叠的有效方法,但我们必须考虑到沿着光z混叠有一个额外的混叠源。这是因为MLP学习在使用mip-NeRF360的情况下生成上限场景几何体:在训练和渲染期间,通过沿射线重复评估该MLP生成的直方图的下一轮采样,只有最后一组样本由NeRF MLP网络呈现。Mip-NeRF 360表明,与之前学习一个或多个NeRF的策略相比,该方法显著提高了速度和渲染质量,并且这些策略都使用图像重建损失来监督。研究人员发现,mip-NeRF 360中的MLP方案倾向于学习从输入坐标到输出体积密度的非平滑映射。这将导致光线跳跃的场景内容的阴影,如上图所示。尽管这种错觉在mip NeRF 360中非常小,但如果作者在他们提出的网络中使用iNGP后端而不是MLP(这可以提高新模型的快速优化能力),它就会变得常见和视觉突出,尤其是当相机沿其Z轴切换时。Although the fine multi-sampling and weighting methods mentioned earlier are effective methods to reduce spatial aliasing, we must consider that there is an additional aliasing source along the light-z-aliasing. This is because MLP learning generates upper limit scene geometry under the use of mip-NeRF360: during training and rendering,The next round of sampling of the histogram generated by repeatedly evaluating this MLP along the ray, only the last group of samples is presented by the NeRF MLP network. Mip-NeRF 360 indicates that compared with the previous strategy of learning one mi-nerf or more nerf,This method significantly improves the speed and rendering quality, and these strategies all use image reconstruction loss to supervise. Researchers found that the MLP scheme in mip-NeRF 360 tends to learn non-smooth mapping from input coordinates to output volume density. This will cause a shadow of the scene content of a ray jump,As shown in the image above. Although this illusion is very small in mip-NeRF 360, if the authors use iNGP backend instead of MLP in their proposed network (which can increase the rapid optimization capability of the new model), it becomes common and visually prominent, especially when the camera switches along its Z axis.在下图中,研究人员可视化了训练实例的提案监督,其中窄的NeRF直方图(蓝色)相对于粗略的提案直方图(橙色)沿着射线平移。(a)mip-NeRF360使用的损失是分段常数,但(B)新模型的损失是平滑的,因为研究人员将NeRF直方图模糊为分段线性样条(绿色)。新模型中的预滤波损失可以学习抗锯齿的提议分布。 消除混叠交错损失:In the following figure, researchers visualize the proposal supervision of a training instance, in which a narrow NeRF histogram (blue) is translated along a ray relative to a rough proposal histogram (orange). (a) the loss used by the mip-NeRF360 is a piecewise constant,But (B) the loss of the new model is smooth because researchers blur the NeRF histogram into piecewise linear splines (green). The pre-filtering loss in the new model can learn the proposal distribution of anti-aliasing.Anti-Aliased Interlevel Loss:研究人员继承的mip NeRF 360中的提案监督方法需要一个损失函数,该函数以NeRF生成的阶跃函数(s,w)和提案模型生成的类似阶跃函数为输入。这两个阶跃函数是直方图,中间是权重的权重,其中,w_i显示可能的风景内容函数区间i。(S_i)研究人员稍后将对此进行讨论。请注意,S和语音是不同的,每个直方图的端点是不同的。The proposal supervision method in mip-NeRF 360 inherited by researchers requires a loss function, which takes the step function generated by NeRF(s,w) and the similar step function generated by proposal model (^ s,^ w) as input. These two step functions are histograms,In the middle, the weight of the weight of the weight, among them, w_i display possible scenery content function interval I. (S_i)Researchers will discuss it later. Note that s and speechs are different-the endpoints of each histogram are different.网络绑定场景的几何预测的训练建议NeRF不会引入混叠。研究人员需要一个可以测量距离(s,w)和(BeautsŞw)的损失函数来平滑这对射线,尽管这两个步骤的端点函数不同。为此,研究人员将使用他们预先构建的算法来模糊NeRF直方图(s,w),然后,将模糊分布重新采样到提议直方图对数的区间集,以生成一组新的直方图权重。Training proposal NeRF of geometric prediction of network-bound scenarios does not introduce aliasing. Researchers need a loss function that can measure distances (s,w) and (Beauts ˆ w) to smooth the pair of rays, although the endpoint functions of these two steps are different. To do this, researchers will use their pre-built algorithm to blur the NeRF histogram (s,w),Then, the fuzzy distribution is re-sampled to the interval set of proposal histogram logariths to generate a new set of histogram weights.这个过程如上图所示。将模糊NeRF权重重新采样到提案的直方图空间后,模型的损失函数是总和w的元素级函数,如下所示:This process is shown in the preceding figure. After the fuzzy NeRF weight is resampled to the histogram space of the proposal, the loss function of the model is the element-level function of the sum w, as follows:Normalizing Metric Distance:许多NeRF方法需要一个函数来将测量距离t∈[0,∞)转换为标准化距离s∈[0,1]。左:功率变换P(x,λ)允许通过修改λ(如线性、对数和倒数)在公共曲线之间进行插值,同时在原点附近保持线性形状。右:构建从线性过渡到反向/反向查询的曲线,并支持靠近相机的场景内容。Many NeRF methods require a function to convert the measurement distance t∈[0,∞) to the standardized distance s∈[0,1]. Left: power transformation P(x,λ) allows interpolation between common curves by modifying λ, such as linearity, logarithm and inverse, while maintaining a linear shape near the origin.Right: construct a curve from linear transition to inverse/reverse query, and support the scene content close to the camera.实验结果: 研究人员的模型在JAX中实现,并在基线360的mip-NeRF的基础上,重新设计和实现了iNGP的体素网格和哈希表结构,取代了360使用的mip-NelF大型MLP网络,整体模型架构与mip NeRF 360相同。 360数据集多尺度版本的性能,多尺度图像的训练和评估。红色、橙色和黄色高亮显示代表每个指标的第一、第二和第三最佳性能技术。所提出的模型显著优于两个基线,尤其是基于iNGP的基线,新模型的误差减少了54%-76%。A-M线是模型的烧蚀实验。有关详细信息,请参阅论文末尾的扩展文本。Experimental resultsThe researchers’ model was implemented in JAX, and based on the mip-NeRF of baseline 360, the voxel grid and hash table structure of iNGP were redesigned and implemented, replacing mip-NeRF large MLP network used by 360. In addition to the anti-aliasing adjustment introduced in it,The overall model architecture is the same as that of mip-NeRF 360.Performance on the multi-scale version of 360 Datase, training and evaluation of multi-scale images. Red, Orange, and yellow highlights represent the first, second, and third best performance techniques for each indicator. The proposed model is significantly superior to two baselines-especially iNGP-based baselines,Especially on rough scale, the error of the new model is reduced by 54%-76%. Line A- M is the ablation experiment of the model. For details, please refer to the extended text at the end of the paper.尽管360dataset包含许多具有挑战性的场景内容,但它无法将渲染质量作为尺度的函数来测量,因为该数据集是通过在大致恒定的距离处围绕中心对象拍摄相机来获得的,并且学习模型不需要在不同的图像分辨率或距离下处理和训练中心对象。因此,研究人员使用了一个更具挑战性的评估过程,类似于使用mip-NeRF多尺度混合器数据集:研究人员将每张图像更改为一组四张图像,分别以[1,2,4,8]的比例进行下采样。额外的训练/测试视图相机已从场景中心放大。在训练过程中,研究人员将数据项乘以每条射线的比例因子,并在测试过程中分别评估每个比例。这大大增加了模型跨尺度泛化的重建难度,并导致混叠伪影的明显出现,尤其是在粗尺度上。 在表1中,研究人员基于iNGP、mipNeRF 360、mip NeRF 360+iNGP基线和许多消融方法对新提出的模型进行了评估。尽管mip NeRF360表现合理(因为它可以训练多个尺度),但新模型在最精细的尺度上降低了8.5%,在最粗糙的尺度上减少了17%,mip-NeRF 360+iNGP基线性能较差,因为它没有抗混叠或推理尺度机制:新模型的均方根误差在最精细的尺度下降低了18%,在最粗糙的尺度下下降了54%,在最粗糙的尺度下,DSSIM和LPIPS降低了76%。这一改善可以在下图中看到。正如他们在第二张表中预期的那样,研究人员的mip-NeRF 360+iNGP基线通常优于iNGP(除了最厚的尺度)。Although 360dataset contains many challenging scene contents, it cannot measure the rendering quality as a function of scale, because this dataset is obtained by shooting the camera around a central object at a roughly constant distance, and the learning model does not need to process and train the central object at different image resolutions or distances.Therefore, researchers used a more challenging evaluation process, similar to using mip-NeRF multi-scale blender data sets: Researchers changed each image into a set of four images which were downsampled with [1,2,4,8] scales respectively. Additional training/test View cameras have been magnified from the center of the scene.During the training, the researchers multiplied the data item by the scale factor of each ray, and they evaluated each scale separately during the test. This greatly increases the reconstruction difficulty of cross-scale generalization of the model, and leads to the obvious occurrence of aliasing artifacts, especially on the coarse scale.In Table 1, researchers evaluated the newly proposed model based on iNGP, mipNeRF 360, mip-NeRF 360 + iNGP baseline and many ablation methods. Although mip-NeRF 360 behaves reasonably (because it can train multiple scales),The new model reduced by 8.5% on the most delicate scale, 17% on the roughest scale, and 22 times faster at the same time. mip-NeRF 360 + iNGP baseline has poor performance because it has no anti-aliasing or inference scale mechanism: the root mean square error of the new model is 18% lower at the most refined scale,It is 54% lower in the roughest scale, and 76% lower in DSSIM and LPIPS in the roughest scale. This improvement can be seen in the following figure. The mip-NeRF 360 + iNGP baseline of researchers is generally better than iNGP (except for the thickest scale),As they expected in the second table.总结: 研究人员提出了Zip-NeRF模型,该模型融合了尺度感知抗混叠NeRF和基于快速网格的NeRF训练两种方法的优势。通过使用多采样和预滤波的方法,该模型可以实现比以前技术低8%-76%的错误率。同时,它比mip-NeRF360(目前解决相关问题的最先进技术)快22倍。研究人员希望本文提出的关于混叠的工具和分析(网络的空间混叠是从空间坐标的颜色和密度映射而来的,z混叠的损失函数是沿着每条射线在线提取的)可以进一步提高了nerf逆绘制技术的质量、速度和成品效率。SummaryResearchers have proposed Zip-NeRF model, which integrates the advantages of two methods of scale sensing anti-aliasing NeRF and NeRF training based on fast grid. By using the method of multi-sampling and pre-filtering, the model can achieve an error rate of 8%-76% lower than that of the previous technology,At the same time, it is 22 times faster than mip-NeRF360 (the most advanced technology for current related problems). Researchers hope that the tools and analysis proposed here about aliasing (the spatial aliasing of the net is mapped from the color and density of spatial coordinates, and the loss function of z-aliasing is distilled along each ray online) can further improve the quality of nerf inverse rendering technology,Speed and finished product efficiency.原文地址:https://aitool.ai/photo-to-video-zip-nerf
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
  • 共16张
3
评论
北邦

发布于 2023-05-16 15:58

【延伸资料】中国AIGC产业全景报告.pdf

链接: https://pan.baidu.com/s/1MptZOVZvpEY-0v3nEVxzGQ?pwd=wheg 提取码: wheg
  • 共2张
  • 共2张
3
评论
北邦

回复于 2023-05-04 11:35

Instagram 著名摄影师: 所有照片是 AI 生成!

注!此文为转帖,原文地址:https://mp.weixin.qq.com/s/_E234TtIoe1nuL0d6rz2Uw Joe Avery 在 Instagram 上的肖像摄影作品:Instagram 上的@averyseasonartInstagram 平台上的摄影师艾弗里,早前一直宣称他的照片是尼康 D810 拍摄的。近期他却公开承认所有的肖像是用AI合成的 !近期 Avery 开始给每个照片打上AI的标签,努力向他的大批的粉丝追随者解释并且说明,他正在使用 AI 图像生成器 Midjourney 创建图像。Avery 通过在Midjourney中输入文本提示来制作图像,所有的图像经过Ai后然后使用 Photoshop 对其进行微调。艾弗里的肖像摄影艺术:每一个AI摄影肖像都带有一个故事这个故事看起来是GPT写的!现在Avery 在每个标签里打上了AI艺术的标签:随着乔斯·艾弗里 Instagram上的粉丝不断飞跃, “他的内疚感也随之越来也明显”        他于 2022 年 10 月开始在Instagram上发布的这些图片,受欢迎程度大大超出了他的预期,这让他感到不安,这促使他联系了技术出版物 Ars Technica。“可能超过 95% 的追随者没有意识到这些图像是 AI 生成的,”他告诉Ars Technica“现在经常有粉丝提问:是不是用AI制作而成的时候?“我想坦白。” 现在网上的粉丝反应各不相同:  粉丝热烈讨论基本分成了两个派别:有支持的也有反对的:支持的认为AI技术是大趋势 打不过就加入:也有粉丝认为他只是一个词语的描述者,认为剽窃了真正摄影艺术的价值。有人批评艾弗里的不诚实,也有人承认认可他的摄影AI 艺术:粉丝 Ron Drynan 在 Instagram 上写道:“不要称自己为摄影师或艺术家。你所做的一切都是从真正的艺术家那里偷来的,“你只是一个词语提示者:终于长出了一些良心的假象,仅此而已。””Instagram 上的另一条回复写道。“这是人工智能制作的肖像,但它很棒,他的@averyseasonart 账号主要以黑白肖像为特色,这些肖像具有清晰的面部特征和模糊的背景。通常,Avery 会提供拍摄对象的名字和他们生活中有趣的轶事,例如“来自布朗克斯的坚强女性”露西或波士顿摄影师贾里德,现在艾弗里已经将作品描述为:“人工智能生成的、人类完成的肖像”,虽然模仿照片写实主义的肖像,过程无疑是要花费时间和精力的。但在每幅图像附带的无数标签中,没有一个提到人工智能艺术或生成艺术。另一个问题源于 Avery 之前否认这些图像是 AI 生成的,实际上是用尼康 D810 拍摄的。这个故事是围绕 AI 图像生成器,及其对创意专业人士的影响的持续狂热的最新一击。2022 年,Lensa AI .、DALL-E 2 和 Nightcafe 、MJ 、SD 等平台迅速流行起来,因为用户可以轻松且负担得起地创建高质量图像。艺术家的反对主要基于这样一个事实,即这些图像生成器是在未经同意或无偿的情况下通过抓取数百万在线艺术品而构建的。对于工具的应用:如创始人谈及Midjourney 的使命是什么?“ 我们喜欢说我们正在努力扩展人类的想象力。目标是让人类更有想象力,而不是制造富有想象力的机器,我认为这是一个重要的区别。 ”
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
  • 共19张
3
1
北邦

发布于 2023-04-29 16:02

全新开源模型DeepFloyd IF,一下获星2千+并登上GitHub热门榜

申明:本文为转载,原文地址:https://mp.weixin.qq.com/s/_pwBD4-wLA9zNHBpD6WdNg 开源AI绘画扛把子,Stable Diffusion背后公司StabilityAI再放大招!全新开源模型DeepFloyd IF,一下获星2千+并登上GitHub热门榜。DeepFloyd IF不光图像质量是照片级的,还解决了文生图的两大难题:准确绘制文字。(霓虹灯招牌上写着xxx)以及准确理解空间关系。(一只猫照镜子看见狮子的倒影)网友表示,这可是个大事,之前想让Midjourney v5在霓虹灯招牌上写个字AI都是瞎划拉两笔,对于镜子理解的也不对。使用DeepFloyd IF,可以把指定文字巧妙放置在画面中任何地方。霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。这意味着,AI直出商品渲染图、海报等实用工作流程又打通一环。还在视频特效上开辟了新方向。目前DeepFloyd IF以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。有需求的小伙伴可以抓紧反馈起来了。像素级图像生成DeepFloyd IF仍然基于扩散模型,但与之前的Stable Diffusion相比有两大不同。负责理解文字的部分从OpenAI的CLIP换成了谷歌T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。负责生成图像的部分从潜扩散模型换成了像素级扩散模型。也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。官方还提供了一组DeepFloyd IF与其他AI绘画模型的直观对比。可以看出,使用T5做文本理解的谷歌Parti和英伟达eDiff-1也都可以准确绘制文字,AI不会写字这事就是CLIP的锅。不过英伟达eDiff-1不开源,谷歌的几个模型更是连个Demo都不给,DeepFloyd IF就成了更实际的选择。具体生成图像上DeepFloyd IF与之前模型一致,语言模型理解文本后先生成64x64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。在这种架构上,通过把指定图像缩小回64x64再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。并且不需要对模型做微调就可直接实现。另外,DeepFloyd IF的优势还在于,IF-4.3B基础模型是目前扩散模型中U-Net部分有效参数是最多的。在实验中,IF-4.3B取得了最好的FID分数,并达到SOTA(FID越低代表图像质量越高、多样性越好)。谁是DeepFloydDeepFloyd AI Research是StabilityAI旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只“研发乐队”。主要成员只有4人,从姓氏来看均为东欧背景。这次除了开源代码外,团队在HuggingFace上还提供了DeepFloyd IF模型的在线试玩。我们也试了试,很可惜的是目前对中文还不太支持。原因可能是其训练数据集LAION-A里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。One More ThingDeepFloyd IF并不是Stability AI昨晚在开源上的唯一动作语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型实现。目前代码和模型权重已开放下载。完整的桌面和移动界面也即将发布。Deepfloyd IF在线试玩:https://huggingface.co/spaces/DeepFloyd/IF代码:https://github.com/deep-floyd/IFStableVicuna在线试玩:https://huggingface.co/spaces/CarperAI/StableVicuna权重下载:https://huggingface.co/CarperAI/stable-vicuna-13b-delta参考链接:[1]https://deepfloyd.ai/deepfloyd-if[2]https://stability.ai/blog/deepfloyd-if-text-to-image-model[3]https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot[4]https://stable-diffusion-art.com/how-stable-diffusion-work/— 完 —
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
  • 共18张
4
评论
北邦

发布于 2023-04-26 19:58

GPT-5 发布前奏:或推接近人类思维机器人!将会怎样改变这个世界 ?

此文为转帖,原文地址:https://mp.weixin.qq.com/s/gjCiKGCN4Wpqnn9NG1JfKA OpenAI GPT联手1X 开发LLM,推更智能机器人“Halodi Robotics” 机器人正在制作烤曲奇饼一些开发者相关消息称GPT-5于今年年底推出,OpenAI的官方Blog已证实该消息,将于今年年底推出GPT-5。但只写明在今年四季度推出,OpenAI官方表示,GPT-5将更加复杂和细致的方式来理解和生成更自然人性化的语言,并补充:GPT-5模型将突破机器学习可能性的界限,有可能彻底改变我们与技术交流和互动的方式,即拥有类似或者接近人类的思维能力。OpenAI在上月已表明,GPT-4.5是GPT-4与GPT-5的过渡版本,是基于GPT-4模型的优势之上,进一步改进会话能力和上下文理解,包括能够处理较长的文本输入、增强主题连贯性、更准确的回应等。 GPT5 具有文本、图像、              和即将推出的视频功能,        甚至还有可能推出更智能机器人,    通过简单的应用程序和功能,             提供对专家知识和解决方案的访问。                    可应用的更广范围:教育科研、研究机构的数据分析、医疗系统 智能工厂等等。比如在医疗方面的应用:GPT 机器人从海量的数据中提取高质量有效的数据,可以接替医生或者称为AI医生,可以利用数据分析更好的进行检查和诊断。在医疗系统上:神经网络的有效性取决于用于开发它的训练数据。经过大量的培训,机器就可以理解细微的数据集。在医疗治疗中AI会更加聪明的判断发现更为细微的问题。   Twitter用户「Siqi Chen」爆料称:GPT-5会在12月完成训练,OpenAI希望GPT-5能实现通用人工智能(Artificial General Intelligence) GPT-5 或拥有和人类同等/接近的智能,     或超越人类的人工智能,    能表现正常人类所具有的所有智能行为。 AI火爆似乎是拉开了第四次工业革命的序幕,人工智能、太空探索,工业5.0等等,AIGC技术进化应用火爆也是一个新的康波周期的开始,AI 混战已经到来,GPT-4 已经让世界感受了到了对各行业冲击,开发者预估GPT-5 于 12月即将发布。Google开发者认为 GPT-5的发布,会对全球企业和个人产生更大的冲击和影响。若成功,到时候人类的所有知识或想法,对于GPT-5都能明白且能够学习,实现 AGI的GPT-5的思维学习能力或将与人类接近。  点击阅读:OpenAI GPT联手1X 开发LLM语言模型推出更加智能人形机器人 OpenAI 投资机器人公司 1X,                  为 GPT5 与物理世界的融合做准备 。   OpenAI希望GPT-5能实现AGI,通用人工智能 Artificial General Intelligence,本月OpenAI 将目光投向了一个未来的科技领域,人形机器人的开发,联手投资了一家名 “1x” 的挪威机器人研发制造企业。“IX”曾称为 Halodi Robotics,它制造的人形机器人能够进行类似人类的动作和行为。 有了OpenAI庞大的数据库支撑后, Halodi Robotics 机器人将会拥有更丰富的应变能力和情感和更加智能。强强联手,大规模推出服务型机器人:一方面通过机器人可以收集大量数据。另一种可能性是训练强大的视频模型,为机器人产品的技术迭代做支撑,就像我们使用的 GPT文本模型一样。2018年,Vondrak提出了基于视频的机器人运动控制。通过状态转换来完成机器人步态转换的工作。其控制方法为最优控制。让机器人在仿真环境中实现了视频中类似于人类的各类复杂性动作。Google 智能机器人抗干扰试验:点击阅读:现实版西部世界Google 采用“25个AI构建了”虚拟世界“现实世界的场景非常复杂,将它们转化为数学问题供计算机解决需要,而计算机需要人类不断输入。计算机视觉模型可能能够区分热狗和三明治,但不一定能区分真正的热狗和热狗的塑料模型。 GPT-5 医疗应用场景:     在医疗机构的应用上:神经网络的有效性取决于用于开发它的训练数据。经适当培训,机器可以深度理解细微的数据集。在医疗中更能提前准确判断发现问题。随着AI技术的成熟后和进步,健康应用程序可能会取代一些地区和个人看医生的需要,并且AI在诊断健康问题方面,利用数据分析的优势,会变得更加准确。伯尔尼大学和 Inselspital 正在建立一个“医学人工智能中心”(CAIM),它将前沿研究、工程、数字化和人工智能相结合,以开发新的医学技术。目前,医疗系统生成的数字数据,比医疗专业人员可以评估的要多。然而使用基于AI 的临床工具可以从海量数据中快速识别关键特征,协助医生、护士和其他医务人员做出更准确的诊断和更好的治疗决策。基于 AI 的临床工具日益增长的需求,并为伯尔尼州的医疗中心提供未来数字医学的优势,伯尔尼大学和Inselspital正在建立医学人工智能中心。CAIM 是医学 AI 领域的一个新平台,将推动以人工智能为重点的研究、教学和转化研究。 目前各大企业开发人员,       已经在做接入GPT-5的相关部署工作。    也有人呼吁认为gpt'-5就产生重大危害。但是大多数人是接受GPT-5/机器人的,因为它可以高效且毫无怨言的,做任何你想要做的事情。ChatGPT虽然在全球非常受欢迎,但已有监管机构陆续盯上。意大利就成为首个禁止ChatGPT的西方国家,指控其违反个人私隐条例,而德国亦正考虑跟上该欧洲盟友的步伐。法国、爱尔兰、西班牙也相继表示考虑更严格的相关政策。随着更加强大的GPT-5的到来也许这种呼声会越来越高。
  • 共7张
  • 共7张
  • 共7张
  • 共7张
  • 共7张
  • 共7张
  • 共7张
2
评论
北邦

回复于 2023-04-20 14:43

OpenAI掌门人:AI的下一个发展阶段

注:此稿为转帖。来源|Greylock | OneFlow社区编译 翻译|胡燕君、贾川 预告了一整年的GPT-4迟迟没来,人们猜想OpenAI是不是要跳票了,更何况他们之前的得意之作DALL-E也被开源Stable Diffusion打了个措手不及,再不来点深水炸弹业界地位危矣。 不过,就在大家以为今年OpenAI将以沉寂收场时,聊天机器人模型ChatGPT横空出世,让人们看到了AI的更大创造力,聚光灯也再度打到了OpenAI的身上。 今年9月,LinkedIn联合创始人Reid Hoffman与OpenAI首席执行官Sam Altman进行了一场对话,而肩负着宏伟使命且极富远见的Altman就曾预言:AI即将迎来下一个发展阶段。如今,大型语言模型越来越先进,也出现了可以实现文本-图像相互转换的多模态模型,一些AI应用还可令科学家如虎添翼。在他眼中,AI是一个可以孵化出无数工具,推动各行各业前进的基础平台。 随着AI行业的不断进步,AI应用不再只是充斥着行业热词的纸上项目,已经发展为成熟的工具,助力多个行业的生产服务,也必将催生出无数新企业。 各种AI工具已显现出巨大的日常应用潜力,可以实现人类的各种想法,改善人类的工作方式,比如由Stability.ai发布的开源Stable Diffusion模型,Microsoft和OpenAI联合打造的AI编程工具Copilot,OpenAI开发的语言生成模型GPT-3和图像生成平台DALL-E以及爆火的聊天机器人模型ChatGPT。 Sam Altman还表示,5年后,我们应该不会再使用Transformer模型了。虽然Transformer很好,但他希望到时候会有比它更好的东西出现,不断突破创新很重要。在他看来,AI可以帮助人类创造出前所未有的新应用,这将是人类的巨大的进步和胜利,是真正的科技革命。 从大模型的商业化机会、AI+应用再到AI发展方向,Sam Altman在这场对话中分享了自己的见解。以下为对话内容,由OneFlow社区编译。 1 大模型的商业机会 Reid Hoffman:很多大型模型都通过API开放使用,能够衍生什么商业化机会? Sam Altman:现在,语言模型已经可以很好地应用到文案写作和教育服务领域,我相信未来几年内,语言模型会更加强大,将能与Google这一价值万亿美元的搜索产品一较高下。语言模型的应用将会改变我们的日常生活。 以前,大家都在调侃聊天机器人,其实它很有价值,只是当时的技术还不能满足需求。现在的聊天机器人更加成熟,几乎可以达到人类水平。聊天机器人可以用于医疗服务行业,提供咨询和教育服务,这方面将能催生出大型企业。 我相信,不久之后会出现多模态模型,这又将打开新局面。现在,人们可以直接用自然语言命令计算机为你完成你想做的工作,例如DALL-E图像生成工具和Copilot编程工具,都是用户向它们输入自然语言描述,然后工具自动生成用户想要的东西,用户还可以不断迭代修改自己的描述,直至工具给出满意的输出。 类似的AI应用方式会成为大趋势,可以孕育出许多大型企业。强大的AI模型可以成为孵化各种AI应用的平台,就像智能手机的出现催生出众多APP一样,它们的共同点都是可以制造无数的商业机会。 Reid Hoffman:既然大家都可以通过API使用大型模型,作为AI企业,怎样才能使自己脱颖而出,开辟自己独特的商业路径? Sam Altman:将来应该会出现几个大型的基础模型,开发人员都将基于这些基础模型研发AI应用。但目前的情况依然是某一家公司开发出一个大型语言模型,然后开放API供他人使用。 我认为,将来在基础模型和具体AI应用研发之间会有一个中间层:出现一批专门负责调整大型模型以适应具体AI应用需求的初创企业。能做好这一点的初创公司将会非常成功,但这取决于它们能在“数据飞轮”上走多远。(数据飞轮:使用更多数据可以训练出更好的模型,吸引更多用户,从而产生更多用户数据用于训练,形成良性循环。) 我对初创企业训练模型的能力持怀疑态度,将来承担模型训练角色的应该不会是初创公司,但这些企业可以在上述的中间层角色中发挥巨大价值。 Audience Member:未来会不会出现垂类AI初创公司,专门为具体产业调整基础模型?提示词工程(Prompt Engineering,修改向AI输入的任务描述,使AI的输出结果更符合用户的需求)将来会不会成为企业的内部职能? Sam Altman:五年后我们将不再需要提示词工程,或者只需在这方面做少量工作。将来的AI系统不会因为增补了某个特定词就会产生截然不同的输出,而是可以较好地理解自然语言,用户只需以文本和语音形式输入指令,即可让计算机完成图像生成、资料研究、心理咨询等复杂任务。 总的来说,用户只须使用自然语言就可以与计算机交互,当然,如果艺术家能想出更有创造性的描述,也自然就可以生成更好的图像。 2 “AI+”时代:AI for Science、元宇宙 Reid Hoffman:在科学领域,AI模型可以发挥什么作用? Sam Altman:现在科学界对AI的应用分为两种。一种是将AI工具直接用于科学目的,如AlphaFold(用于蛋白质结构预测),它们可以创造巨大价值,相信未来会出现无数这样的工具。 另一种是将AI工具用于提升科研工作效率,如帮科学家和工程师找到新研究方向、写代码等。Copilot编程工具就是一个例子。但AI工具的能力远不止于此。上述两种AI应用将会大大推动科技前进。 此外,目前科学界也在探索对AI的第三种应用方式——让AI成为可以“自我改进”的科学家。这件事情既有好处也有风险。 好的一面是,可以利用AI将人类的工作内容自动化,教会AI做任何人类可以做的事情:探索新科学、提出理论解释、验证、思考等,或许还可借此解决困扰人类已久的“AI对齐问题(Alignment Problem)”(即如何让AI系统的目标符合人类的价值观)。风险在于,有人担心懂得“自我改进”的AI有可能会像科幻小说描写的那样,擅自改动代码或修改优化算法。 我深信,真正有利于促进人类和经济的前行的,是一个能够推动科学进步的社会架构。我们能从这样的社会架构中获益很多。 Audience Member:像GPT-3这样的基础模型会如何影响生命科学研究的步伐?生命科学研究中有没有一些技术手段无法克服的限制因素,比如自然规律等? Sam Altman:目前的可用模型还不够好,不足以对生命科学领域产生重大影响——不少生命科学家了解这些模型之后都说,它们只能在部分情况下发挥些许作用。AI在基因组学领域有一些很有前景的应用方向,但目前尚属起步阶段,不过我很看好。我认为这也是市值千亿的巨头准备进军的领域之一。 如果AI未来真的可以让医药公司的研发速率提高几百倍,那无疑会产生深远的影响。不过如你所说,生物学的自有规律仍在,新药的临床验证需要时间,这也是医药研发的速率限制因素。 据我所知,不少合成生物公司借助AI发现许多新的研发想法,加快自己的研发迭代周期,但研发出来之后终究是要进行测试,这部分时间无法缩减。 我认为,医药初创公司最重要的是低成本和快速的研发周期,有了这两点就有资本参与市场竞争了。所以如果我是一家医药初创公司的决策者,一开始我不会选择从心脏病这类大难题下手。 此外,如果我是一家AI药物研发初创公司,我会在模拟器上多下工夫,因为目前这方面还亟待改善。 Reid Hoffman:你对AI和元宇宙怎么看? Sam Altman:元宇宙会发展成一种新的软件容器,就像手机一样,成为一种计算机交互方式。而AI则是一场技术革命,所以问题应该是“元宇宙如何融入AI新世界”,而不是“AI如何融入元宇宙”。当然,这仅代表我个人的观点。 Audience Member:AI工具已经可以辅助人类进行创造性工作,AI什么时候会从创作者的辅助工具发展为具有独立创作力的智能体? Sam Altman:作为创作辅助工具,AI既有用也很受欢迎,但目前来看,AI在大部分的创造性任务上的能力都有待提高,未来很长一段时间内都不能代替人类创作者。可能到100年之后,AI才可以独立完成创造性工作。 十年前,大部分人都认为AI取代人类工作的次序是:蓝领工作(卡车司机等)→低技能的白领工作→高技能的白领工作(程序员等),最后才会(也许永远不会)取代创造性工作。现在的事实证明,AI最有可能先取代的反而是创造性工作。 这也说明,预测未来是很难的,还说明人类可能不够了解自己,不清楚什么类型的技能最难、最需要调动大脑,或者错误估计了控制身体的难度。 Reid Hoffman:除了AI的应用潜力之外,目前大家对AI的讨论有没有轻率的一面,比如将AI用于核聚变研究? Sam Altman:通常而言,如果某个行业获得非常广泛的社会关注,所有人都在谈论它,这可能不是什么好事,可惜这恰恰是AI行业目前的情况,我不希望这是AI行业“垮掉”的前兆。 业内有人正在研究利用强化学习模型控制核聚变反应,但据我们所知,AI模型在这里发挥的作用还非常有限。 我们现在进入了“AI+”时代,相信AI在未来可以实现很多东西,会成为最大的新一代技术平台。但就目前而言,我们倾向于往更有确定性的方向发展,比如,业内研究出了缩放定律(Scaling Law,该定律揭示AI模型性能与模型参数、数据、计算量之间的关系),就以此为基础展望下一步。 这也是OpenAI的运作模式——先做摆在我们面前的最有信心能成功的事情,然后分出10%的资源进行成功确定性更低的探索工作。这种运作方式为我们带来巨大的成功。 现阶段不应该把重点放在“让AI无所不能”上,而是先沿着现有的道路慢慢发展完善AI,然后留有开放探索的空间——伟大的事物都不是计划出来的,有时重大的突破诞生于偶然。 3 AI的未来发展方向 Reid Hoffman:未来几年,AI的发展方向是什么? Sam Altman:一个比较确定的方向是,语言模型的发展会远超今天的想象。虽然很多人都说算力和数据都已经跟不上了,这也是事实,但算法的改进空间依然很大,还可以带来很大的进步。 第二个方向是多模态模型的发展。未来的多模态模型将不局限于文本和图像的互相转换,而是所有模态之间都可以方便地互相转化。 第三个方向是,模型可以持续学习。目前的模型如GPT都停滞在当初训练好的状态,并不会随着使用次数的增加而自我优化。我相信未来可以改变这一点。 如果上述三点都能实现的话,我们就可以解锁无数全新的应用场景,实现真正的科技革新,帮助人类实现科技的飞跃式前进。而且我相信,我们也有办法利用AI推动科研进步和新知识的产生。 我认为,现在普遍存在的一种错误观点是:“虽然语言模型的功能已经比较完善,还可以应用到图像和视频领域,将应用智能的边际成本降得非常低,但归根结底,它只是模仿人类做过的东西,不能为人类产生新知识,不能治疗癌症,也不能拓展人类已知的科学领域。”我相信,AI的发展会让持这种观点的人大吃一惊。 Reid Hoffman:AI将如何影响未来人类的生活? Sam Altman:AI终将渗入人类生活的方方面面。未来十年里,智能和能源的边际成本会迅速下降,趋近于零,而智能和能源又是其他各行各业的主要成本来源(当然,奢侈品除外)。[注:Sam Altman 是否提前知道了美国能源部在12月份宣布的可控核聚变的进展?] 整个社会的成本结构都会下降,正如之前多次科技革命的结果一样。在这种浪潮之下,很少有什么会一成不变。但有一点很重要,智能和能源成本只是趋近于零,而不是直接降为零。所以将来如果有人仍愿意花费巨额投资来购买智能和能源,他们得到的算力和能源的数量将突破想象。 设想一下,将来的能源使用成本下降10~100倍,智能使用成本下降1亿倍,而对能源和智能的资金投入则比现在多1000倍,那会是什么样的局面? Audience Member:未来二三十年内,AI的发展会带来什么社会问题?如果要避免这些问题,我们现在可以怎么做? Sam Altman:AI的应用会极大影响经济活动。将来我们需要形成新的社会契约,考虑如何公平地分配财富。AGI系统的使用权将会成为一种商品,所以也要考虑如何让所有人平等地获得使用AGI的机会。还有AGI的管理问题:人类如何共同决定AGI可以做什么、不能做什么。 我不担心“AI取代人类的工作之后,人类何去何从”的问题,虽然未来人类的工作会和现在很不一样,但我觉得人类最终都会找到自己满意的事业,过上充实的生活。真正的难题是财富分配、AGI使用权和AGI的治理问题。 Reid Hoffman:据我所知,OpenAI也付出不少努力,试图解决AI的社会影响问题。 Sam Altman:OpenAI正在进行全球最大型的UBI实验。(Universal Basic Income,无条件基本收入;Sam Altman认为,十年后AI的生产力可以创造巨大财富,足够给每个美国公民每年无条件发放13,500美元。)有一个为期五年的项目已经进行到三年半了。UBI不会是唯一的解决方案,但它是一个不错的做法。 OpenAI从受AI冲击最大的行业中汲取意见,以便制定应对方案;对于那些最先被AI取代的劳动者,我们也尝试利用AI帮助他们学习新技能。我们还会不断地做类似的事情。 Audience Member:你如何定义AGI(通用人工智能)?怎么才算实现了AGI? Sam Altman:我理解的AGI相当于一个可以共事的普通人,任何远程同事可以通过电脑帮你完成的工作,AGI也可以做,包括让AGI学习医疗知识和写代码等等。 AGI的重点不在于掌握某一种难得的技能,而是拥有学习的元能力,然后只要人类需要,它就可以往任何技能方向发展并精通。另一个概念是“超级智能”(Super Intelligence),它指的是比全人类加起来还要聪明的智能。 Audience Member:哪些领域不会被AI影响? Sam Altman:所有人类深层次的东西都不会被AI改变。作为人类,我们依然注重人与人之间的互动联系,人类大脑的奖励机制没有变,我们依然追求快乐,拥有创造欲和竞争欲,渴望组建家庭……五万年前人类在意的东西,一百年后的人类也会在意。 ————————————————版权声明:本文为CSDN博主「OneFlow深度学习框架」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/OneFlow_Official/article/details/128337504
6
3
AlanQ

发布于 2023-04-19 16:50

说真的,又一个免费大杀器,Midjourney瑟瑟发抖

正文共1646字,阅读大约需要5分钟原文链接:https://mp.weixin.qq.com/s/lCZNeEFEBoC-jGozLvgYcA题图制作 by Clipdrop Stable DiffusionPrompt: Canyon desert上面这张题图几乎是我用过最短的一个Prompt,一共只有两个单词,还能生成不错效果的风景图,如果这都不介绍给各位,说真的实在有些过意不去。各位且坐稳了,听我娓娓道来。在我看来,Clipdrop一直是个有点中二的网站。点开导航栏上的Tools,你会看到一长串工具产品的名单,什么擦涂工具,放大精度工具,调整光源工具,替换背景工具,清除文字工具……真的琳琅满目,硬是做了个在线版的Photoshop出来(没错,它还真有PS插件)。但是,用起来总让人有种说不出的感觉。就好像技艺娴熟的修补匠,能将破洞的皮鞋修补翻新。但如果你让他们从原料开始,裁剪制作一双新皮鞋,总觉得哪里有些不太对劲。原创和加工之间,始终隔着原作署名权这座大山。直到Clipdrop官网上线了网页版的Stable Diffusion长期关注我的朋友一定不会对SD感到陌生。只要是AIGC相关的话题,我一定会拿这个AI绘图工具举例子,这是实实在在的生产效率工具。早在两周之前,我介绍过Stability AI的亲儿子DreamStudio,江湖传闻已久的SDXL模型只此一家别无分店。整个绘图过程简单轻松,成图质量也很不错,如果你还没用过,我真的推荐你去试试。(文末有链接)万万没想到,Stability AI 前脚刚收购了Clipdrop,后脚就在网页上添加了免费的图生图工具reimagine。这一次干脆不装了,为了推广SDXL模型的API,Clipdrop直接上线了最新模型驱动的Stable Diffusion。对,你没看错,SD要化身API接入千家万户了。颤抖吧,Midjourney如何评价Clipdrop版SD的使用体验?我只能说什么正面提示,什么负面提示,什么迭代步数,什么效果语法,统统一边去,一句话成图的时代来临了!你看看这界面,简单的令人发指(被WebUI支配的恐惧?)真没什么好介绍的。没注册账号?没关系,来的都是客人,请慢用。没付费开Pro?没关系,几秒四张图不耽误事。想换个效果?点开style,14种风格任君选择。支持成图以后单张或者四张修改风格。光看我吹上天你也不一定信,来,有图有真相,我们挑战一下两个词能出什么效果吧。Prompt:blue skyStyle:CinematicPrompt:cute catStyle:No stylePrompt:a boyStyle:PhotographicPrompt:a girlStyle:PhotographicPrompt:office buildingStyle:No stylePrompt:a carStyle:Cinematic更离谱的是,网页版支持多开。为了生成上面这些图,我同时开了3个页面来回切换。想要画面更丰富的图?那也不在话下,提示词往上堆就行了。已经很离谱了吧,但更离谱的还在后面。这个网页版SD,它支持中文!支持中文输入,但也只是支持输入而已,一些深奥的词汇还是不能完全理解的。各位一定注意到了,直接下载的图片在右下角会有Clipdrop的水印。所以如何去除呢?这时候的Clipdrop仿佛突然血脉觉醒,它一直就是个工具库,去水印换高清什么的还不是手到擒来?点击右上角Cleanup imperfections操作界面如下原图:清理后:完整图:划重点:免费免费通通免费。从只需要两个词就能成图开始,到去背景,调整光源,图生图……功能真的太丰富,无缝衔接了成图修改全流程。都看到这里了,你还无动于衷?还愣着干嘛赶紧去试试啊!关注我的公众号,在消息中输入“cd”(不分大小写),即可获得那个神秘的直达链接。Midjourney的好日子,快要到头了。
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
  • 共29张
3
评论
AlanQ

发布于 2023-04-18 02:16

最新ai工具推荐

1、真人CG替换生成工具-WonderStudio 2、-最火AutoGPT-推荐试用以下产品: 【最复杂】安装开源代码Auto-GPT 【需Token】功能也比较简单agentGPT 【最简单】无需Token在线使cognosys.ai 3、最酷的AI视频生成器-KaiberAI 4、超高清图像生成器-Clipdrop-Stable Diffusion XL(备注:今日已全网开放) 5、AI搜索引擎-Perplexity 更直观视频请搜索~from 视频号:AIGC. TOOL
  • 共7张
  • 共7张
  • 共7张
  • 共7张
  • 共7张
  • 共7张
  • 共7张
3
评论
北邦

发布于 2023-04-13 23:11

爆火AIGC产品卷翻海外营销:一键搞定美工和拍摄,月活迅速破百万

本文为转载内容,原帖地址:https://baijiahao.baidu.com/s?id=1763037197290125889&wfr=spider&for=pc 第一批被AI抢饭碗的设计师已经出现了。随着各个互联网大厂纷纷发布如何将AI工具融入日常工作流中,美工、设计、原画等众多岗位纷纷出现了裁员爆料,毫无疑问这一波AI浪潮的降本增效已经真切开始影响大家的饭碗了。就在最近,海外一款名为ZMO.AI的生成式营销软件,B端用户月活迅速突破百万,ARR达到300万美金。△官网地址:https://background.zmo.ai/ 看来,老营销人也逃不过这一波AI的失业潮了。据悉,ZMO.AI旗下的AI背景生成生成, 只需商家上传一张产品图,便可以在100%保留产品细节的前提下,依据指令生成成千上万不同风格的背景。其逼真度堪比大片的商用场景图,无论是光影还是清晰度,都完胜超过10年经验的PS大师。它家的另一个产品Marketing Copilot,更是只需上传一张产品图,便可从拍摄、到海报制作、到后期投放优化全部嵌入AI workflow的自动化流程,利用AI强大的创造力和分析能力实现运营秒秒钟优化。这么开箱即用的产品,让不懂拍摄和PS的小老板也能上手。△官网地址:https://background.zmo.ai/ 实际上,ZMO.AI在营销生成领域扎根已久。从2020年底便在服装营销领域推出AI模特功能,和国内知名服装品牌有众多深入的成功合作。此次Diffusion的大火,ZMO也在2022年9月趁势推出了更广泛受众的AI内容生成产品ImgCreator.AI,并将营销人群作为主要服务对象,强化产品中背景生成、海报生成和数据优化的AI能力,并为B端用户提供Marketing Copliot的增值功能。此举为ZMO赢得超过百万月活的高价值小B端用户,并且用户付费意愿强烈,传来迅速达到300w美金ARR的喜讯。生成的产品货不对板?和其他纯玩目的的AI绘画C端用户不同,B端的用户面对的是非常专业的场景,无论是对质量的要求,还是对可控性、准确性的要求和C端用户相比都极高,这也许也是类似于ZMO这样专业化的AI内容产品能获得成功的原因。Rowdy 是英国创业公司e-Bike的CEO, 他们是一个不到10人的小团队,旗下产品e-bike主打电动自行车防盗系统。据Rowdy介绍,对于小公司而言,网站搭建和博客撰写所需要的大量素材非常昂贵,AIGC的出现大大解放了他们的生产力。不过Rowdy发现大量的AIGC网站往往是艺术美学风格,和他所需要的真实照片风格相去甚远,而ZMO.AI的真实照片风格逼真度非常高,并且分辨率可以达到4/8K, 完全看不出来是AI生成的图片了。这半年来,Rowdy的团队一直在用ZMO的产品为网站设计和公司博客配图,每周能生成200多张照片。据Rowdy描述:相比于价格高昂的拍摄来说,二十几英镑的软件费用简直太划算了。△图为Rowdy使用ZMO.AI生成素材后的公司网页Nila是一家跨境电商的负责人,他们的户外沙发在欧美地区增长非常迅速,不过她也遇到了营销的难点。对于沙发这种大件拍摄是一件非常痛苦的事情,因为不仅运输成本很高,搭建拍摄场景同样又慢又贵。于是Nila团队聘请了许多美工人员,通过P图的方式来完成素材的制作。然而头疼的点也随之而来, 虽然Nila团队雇佣了许多外包的修图师,但想要P出非常真实的效果,往往需要10年以上的经验,而修图师的水平参差不齐,使得P图效果以及数据表现都和原图差距很大。经过圈内好友介绍,Nila开始使用ZMO.AI的文字P图,她发现仅仅输入一段文字,照片就可以毫无P图痕迹的按照指令修改,完全不需要任何高门槛的工具学习或者经验,她这个小白也能成P图大师。P出来的图非常自然,完全看不出来是P过的,数据表现也比之前好很多。在使用ZMO.AI的产品前,Nila每天会花大量的时间和修图师反馈,前前后后要磨好几天才能上线比较好的效果。“万一内容表现不好,还需要重新P,这里的时间和金钱消耗都不小。”和Nila不同,Nick是美国一家专业营销代理的营销经理,,负责帮助广告主搭建官方社媒账号和设计广告素材。Nick的客户既有线上电商客户,也有传统实业甚至餐饮行业的用户。尤其是疫情之后,所有商家都离不开线上营销,但高质量素材确实是一个难题。Nick如是说道。AIGC的出现确实给这个行业带来了很大的变革,然而Nick发现网上盛传的Midjourney或者很多其他的AIGC产品完全满足不了他的需求,因为生成的图片中产品的细节会变化,无法100%保持原样。Nick说:乍一眼看是差不多的,但仔细比对发现花纹、logo、材质都不完全一致,货不对板商家是肯定不会使用的。Nick在twitter上发现ZMO.AI这款软件不仅可以完全保持产品的所有细节,还可以逼真的生成光影,无论从分辨率还是真实度上都能完全满足运营人员的需求,这是其他AIGC软件所无法达到的。不仅如此,让Nick最为惊叹的是ZMO的Marketing Copilot功能完全重新定义的营销人的工作流。只需要上传产品图,从拍摄,到海报,到内容优化,全能自动化搞定!真实一个成熟的AI,能自己做营销了,哈哈Nick将客户以前数据表现良好的素材上传到了Marketing Copilot训练了自己的专有化生成模型,这样模型的输出就能更符合自己客户的受众喜好和品牌调性。Marketing Copilot的模型往往会先需要1-2周的内容方向自适应调教,反复进行生成素材——数据反馈——素材优化的流程,之后特有模型根据指令以及品牌调性自动生成符合受众喜爱的营销图片,在这个过程中来自高质量营销数据的反馈功不可没,并且这些数据是私密的,商家完全有控制权。在Nick看来Marketing Copilot不再是一个简单的内容生成工具,而是改变营销流程的一整套解决方案,通过AI更强的分析能力和生成能力,极大的缩短营销各个环节的消耗和协作生产,并以最终数据为导向24小时不停歇的优化整个营销内容。Nick表示团队确实AI出现后在考虑缩减一部分营销人员,因为当团队熟悉Marketing Copilot这个新的工作流之后,每一个SKU的出图量从原来的不到10张瞬间暴涨到200张,并且开始借助Marketing Copliot大量进行AB测试和迭代,将原来三四个月的优化周期缩短到了2-3周,销售额更是增长了3倍。终极的AI workflow到底应该是什么样的,当下下结论为时尚早,但很可能不只是一个空白文本框,后面还连着一个不属于你的API。当下对于创业公司更重要的是做出能解决商家痛点的产品和用户一起不断迭代,而非空谈和迭代demo视频。特定场景下更需要专门优化的大模型ZMO.AI的惊人增长,不禁让人联想到了TypeFace和Adobe这两家公司。和火爆的OpenAI、Stability AI这些做通用大模型的公司不同,TypeFace、ZMO、Adobe都不约而同选择了有应用场景的垂类大模型方向进行产品打造。市面上有一种普遍的观点,认为未来所有行业都将被极少数通用AI大模型主导。那么这种应用场景的垂类大模型还是否有进一步的意义呢?显然,这几家公司给出了不同的观点。Typeface虽然是一家2022年6月才成立的初创公司,但它的创始人却是大名鼎鼎的Adobe前CTO—Abhay Parasnis,也在创立之初就获得了来自谷歌风投、微软风投和光速的6500万美元的投资。除了明星创始团队,Typeface让人印象最深刻的就是针对大型品牌,创建基于企业品牌定位和受众目标而生成的个性化文字及图像内容。和面向大众的通用内容生成不同,大品牌对于品牌调性以及内容可控性的要求无法通过直接调用Stable Diffusion达到。Parasnis表示:对于一家公司来说,最基本的一个问题是其数据和品牌形象的安全。每个企业都希望确保自己不会在不经意间创造出不准确、剽窃或冒犯性的内容,导致自己的声誉受损。目前Typeface通过个性化训练的品牌独有模型以及内容审查算法帮助这些大品牌解决上述痛点。而设计界鼻祖Adobe也在前段时间发布了自家的AIGC产品Firefly。面对设计师丢掉饭碗的担忧,Adobe提出“并非替代,而是赋能”的口号,并在更加专业的设计层面给出了可实用落地的AIGC功能。比如生成矢量的功能,只需要一张草图,就可以生成自定义向量,这对于设计师而言非常的实用。但普通的AIGC生成器往往是一个整体平面图生成,无法真正生成矢量和图层。然而Adobe2022年10月就在发布会上提到会将AIGC的能力嵌入PS内,目前尚未落地植入,Firefly上的许多功能点也都还处于开发中,可想而知要将Firefly集成到Adobe复杂的工具生态中还是一项非常浩大的工程。与Typeface、Adobe相似,ZMO.AI同样也是面向专业用户的垂类大模型,只不过ZMO的用户群体更多的是营销方向的小B。在ZMO.AI的联合创始人马里千看来,虽然基础大模型在许多任务上可以表现出平均人类的水平,但它们在特定垂直领域中表现不佳。这是因为这些领域的领域知识不是常识,相关数据也不容易公开获取。例如,ZMO为了完整的保留产品细节会需要用到自研的高精度抠图算法。抠图是一项复杂的视觉任务,它涉及准确估计每个像素的 alpha 值,以从图像和视频中提取前景对象。这可能会因为复杂的背景、光照条件和物体透明度等因素而具有挑战性。此外,这项任务的标注是困难、特定和昂贵的,ZMO花费了一年的时间和高昂的成本才获得这些高精度的标注数据。马里千表示:在我们的使用案例中,我们可能会专注于抠图特定对象(例如产品),这不是大型基础模型的优势所在。从Typeface、Adobe和ZMO的产品中不难看出,大模型终究是需要细分场景的数据和规则的,在特定场景中需要大量专门优化通用大模型来提升生成质量,并且符合这个专业场景的可控输入和输出才能真正的落地使用。创始人:图像生成质量已到达拐点为了更深入了解ZMO.AI疯狂增长背后的秘诀,ZMO的创始人张诗莹进行了一次专访,以下是对话内容:Q1:AIGC这一年以来不仅涌入众多创业公司,还有许多大厂下场,您认为什么是创业公司的机会呢?Zsy:在我看来目前AI公司是有生态分层的,大模型层、纯应用层和垂类大模型层。大模型层就像操作系统,是属于少数人的机会,更适合大厂或者大佬这种有雄厚财力人力的玩家,创业公司更适合后两类。而纯应用层在底层大模型不断变动的时代壁垒很低,可持续性不强。垂类大模型是我们坚定的方向,这类的公司比如Character.AI、Midjourney、Typeface、ZMO。垂类大模型公司通过搭建端到端的工程栈,覆盖模型的研发、训练、数据、应用整条价值链,这类公司的产品并不依赖第三方API,迭代非常迅速并且能很好地利用应用侧用户的数据反馈形成数据飞轮。比如ZMO就将我们应用端大量的高价值用户反馈数据和模型完全打通,通过数据飞轮对垂类大模型的内容生成方向进行重要的引导和优化,并积累自己的专有数据集。Q2:垂类大模型难道不会很快就被通用大模型取代吗?ZMO的模型有多大?Zsy:我并不认为垂类大模型和通用大模型是一个对立的概念,相反我认为垂类大模型是可以站在通用大模型的肩膀上进一步优化专业领域的模型。对于非常细碎,需求个性化的C端场景,通用大模型会更合适;然而像营销这种非常专业的toB场景,AIGC产品不会是简单的一个对话框和后面的第三方API组成。因为专业场景对于可控性、准确度以及质量的要求极高,这必然会是一个复杂的系统结构,需要在通用大模型的基础上进行专门的模型优化才能符合营销场景的需求。我们的模型参数量是SD的3倍——有2.3B,当然我们还在不断利用用户反馈进行RLHF优化,50台机器同时做优化训练,保持每月一迭代版本的速度。Q4:Midjourney和你们已经盈利了,文生图公司盈利的可能性相对于其他类型的大模型公司是不是更高?Zsy:我不是非常了解其他大模型领域,所以不便评论。然而对于CV的AIGC领域,我认为确实生成质量已经到达了拐点,这也解释了为什么付费用户会大量持续增长。对于我们的用户而言,生成的内容能给他们切切实实的降本增效,甚至能提高收入,他们以前拍摄动则几万美金,而现在几十刀的订阅费就解决了,所以我们的付费用户很快涨到了2万个。Q5:您认为ZMO的优势是什么?Zsy:首先ZMO在生成式营销领域积累了2年半,对于这个领域的know how和用户痛点有深刻的认知。比如用户对于产品细节不能货不对板的需求,比如拍摄和PS费时费力的痛点等等,所以我们才能搭建起来深刻绑定营销AIGC原生workflow的产品。其次我们拥有大量营销领域的专业数据,比如我们积累的6000万高清真实照片数据集用于训练超高分辨率的逼真照片,比如我们积累的海量alpha抠图数据集等等。最后一点是我们搭建并验证跑通的专业营销用户的RLHF反馈系统,这种高质量的专业用户数据反馈是比较高的商业数据壁垒,属于特定行业私有数据,通过这种反馈才能在细粒度参数下不断优化内容生成方向。Q6:如何应对大厂的竞争?Zsy:我认为竞争是在所难免的,不过目前大厂推出的功能在我看来更多是防御性反应,做的应用仍搭载在现有业务上,只针对有技术和愿意付高价的一小部分人做了一些附加功能;而像我们这样的AIGC初创公司从一开始就在新的内容创作范式框架下去创造产品,构建完全不同于传统工作流的AI Native Apps。大厂是否能做出强大的新一代AI产品还是要看能不能革自己的命吧。Q7:是如何做到用户洞察的?Zsy:我非常喜欢和用户聊天,每天会花2个小时阅读用户的反馈,很多用户的痛点都是在这当中发现的。我认为早期看数据很难看出来真正的痛点,因为巨大的流量中既有我们目标用户,也有大量纯”玩”的用户,所以找到大量的目标用户观察他们的使用,和他们聊天就成了我日常必备,当然我也经常会去拜访客户的公司,和不同环节的营销人员交朋友。
  • 共8张
  • 共8张
  • 共8张
  • 共8张
  • 共8张
  • 共8张
  • 共8张
  • 共8张
5
评论
北邦

发布于 2023-04-13 23:02

【中英字幕】AI短片《石头剪刀布》效果前后对比视频

算是行业里的大成本高精度执行的AIGC大片。话说这个最终效果如此惊艳,还在于本体演员和整个拍摄班底的功力很深厚的关系,AIGC只是其中一个技术环节,当然这个模式最大的优势还在于可以拍摄后的视频聚集随时更换演员和风格,这实际上是一种虚拟演员的低成本模式。未来虚拟IP可以随时出演客串各种剧集了,想想这个未来很刺激啊,同时又觉得后背发冷。没事儿,我们都是大象身上的蚂蚁,大象皮的皱褶只是我们要去适应的一个新环境吧。短片由Corridor团队制作,有条件可以关注一下他们的Youtube频道,非常优秀的一个频道最后BGM是,由souichi sakagami制作https://www.youtube.com/watch?v=ljBSmQdL_Ow&ab_channel=CorridorCrew 制作团队网站https://www.corridordigital.com/ 正片:BV1UY4y127Eb 幕后:BV1gM411j7uc
3
评论
北邦

发布于 2023-04-12 14:44

马斯克入局AIGC大战,紧急抢购约1万张GPU!

本文转自公众号 量子位 | 原文地址:https://mp.weixin.qq.com/s/cTMDRcfoUIaxtpG8yEO2Rg 马斯克入局AIGC大战,紧急抢购约1万张GPU!什么概念?特斯拉最强超算Dojo也不趁这么多。Dojo在2022年升级后公布的数据是7360块A100,虽然这次买的什么型号还不清楚,但光从数量来说也足够恐怖。据Business Insider消息,这1万显卡是买给推特的。爆料者称,推特版GPT已在准备中,而且推特本身就拥有海量数据,存在一定优势。等一下?马斯克不是前一阵还签署公开信,呼吁比GPT-4强大的AI模型暂停6个月的吗?真就应了网友说的“你们停停,等我追上”呗?对于马斯克这次的大动作,也有网友认为囤GPU本身就是很好的投资了。主攻大模型,挖走两位DeepMind工程师据知情人士透露,马斯克的人工智能项目还处于早期阶段,购买如此多的额外计算能力足以表明他的决心。如开头所说,这1万张GPU目前主要涉及开发一个大语言模型——在马斯克手下所有公司中,恐怕推特是最适合做这件事的,因为它可以提供大量训练数据。如一位网友观点,成立于2006年的推特,已经积累了快20年的数据库,这完全就是推特进入LLM领域的绝佳利器。除了豪掷千金买GPU造大模型,马斯克也在大力抢人。目前,已成功挖到两位DeepMind工程师:一位是Igor Babuschkin,从事AI系统研究,是DeepMind的高级科研工程师,在DeepMind前后一共工作了约5年,中间还跳去OpenAI干了一年半。另一位是Manuel Kroiss,是DeepMind就职了六年的软件工程师,在此之前是谷歌的方案工程师。马斯克招他进来后给他安排的职位是推特软件工程的高级总监。据BusinessInsider透露,其实从2月起,马斯克就开始频繁跟AI领域的人士“套近乎”了,其中就包括Igor Babuschkin。至于这个大模型究竟作用在何处,我们暂且不得而知,不过有两种猜测:一是改进搜索。因为老马曾抱怨过这一功能,甚至还聘请过著名iPhone黑客George Hotz进行为期三个月的修复。不过似乎他和马斯克的“气场不和”,不仅曾经拒绝了特斯拉的offer邀请,在推特本来说好的三个月,也只呆了一个月就走了。除了搜索,另一用途可能是广告营销。广告是社交媒体的支柱。可惜马斯克在收购推特之后搞了很多新政策,不少广告商直接削减支出或干脆不合作了,导致光是推特去年12月的收入就比同期下降了约40%。而如果有了大模型来做生成式AI创作,无论是设计素材还是提供idea,都可能会提高推特在广告营销方面的效率和收益。emmm……说起推特现在(一直)不太乐观的财政情况,这次知情人士还称,马斯克这次买GPU可能得造了数千万美元。毕竟很可能买的英伟达,因为它家占据了95%的市场份额,而一块用于AI大模型的产品得卖约1万美元。这么说,推特一直缺钱的原因找到了?(手动狗头)5年前接管OpenAI失败,马斯克的反击来了自ChatGPT诞生以来,马斯克没少发表对OpenAI的看法。暂停AI开发6个月的公开信页面上,他的名字现在依然在列。而且还经常对他参与创办的这家公司的现状表示不满。我捐1亿美金成立的非营利组织怎么就变成一个300亿市值的营利性公司了呢?如果这是合法的,为什么其他人不这样做?随着全世界对ChatGPT与OpenAI的持续关注,更多马斯克与OpenAI的往事内幕也被挖掘出来。据Semafor消息,2018年马斯克之前曾试图接管其CEO职位,但最终失败。当时,马斯克认为OpenAI技术上已经远远落后于谷歌,需要做出重大改变。经过内部激烈的权利斗争后,董事会否决了马斯克的意义。作为回应,马斯克完全退出了OpenAI,还挖走了Andrej Kaparthy去做特斯拉AI主管。OpenAI现任CEO Sam Altman还在一次采访中表示“我一直把马斯克当成英雄,虽然他最近在推特上挺混蛋的(being a jerk)”。除了发表攻击性言论外,马斯克还针对OpenAI做出过实际行动。在过去OpenAI是可以使用推特数据进行AI训练的,但ChatGPT发布的第5天,马斯克就下令暂停了这个权限。3个月后,马斯克宣布要成立自己AI实验室的消息,还选择了BasedAI作为团队名称。现在,马斯克又神神秘秘地发一条对AI的最新观点,或许是在透露推特版GPT的开发方向:好奇心拉满的AI可能是最好的。猫可能会反对(好奇心害死猫),但好奇猴乔治(来自流行启蒙读物)会大力支持。参考链接:[1]https://www.businessinsider.com/elon-musk-twitter-investment-generative-ai-project-2023-4?op=1[2]https://twitter.com/artificialguybr/status/1645852415600611333— 完 —
  • 共10张
  • 共10张
  • 共10张
  • 共10张
  • 共10张
  • 共10张
  • 共10张
  • 共10张
  • 共10张
  • 共10张
3
评论
北邦

回复于 2023-04-02 21:55

Adobe发布AI绘画工具 - Firefly

声明:该教程为B站up主人工治障 录制,在此仅作为学习资料转载!感谢up主的认真,虔诚一拜。视频中演示到的adobe对ai生成的应用可谓非常丝滑了,对于设计师建立更高效的工作流来说可谓是惊艳!不过我对于是否真的如此顺滑始终报以质疑的态度,太多演示功能类的视频都是言过其实的,真实的体验相差千里。但没有入手体验毕竟还是不好直接发表意见的,以上都还只是我看完视频的直观感觉而已。目前申请试用刚刚提交,看到时的具体体验感官吧。当然,其实我很希望能被啪啪打脸!Adobe Firefly Beta 官网:https://firefly.adobe.com/ Beta版本申请:https://survey.adobe.com/jfe/form/SV_2tNbydqEp6ovet0
3
1
北邦

发布于 2023-01-15 16:49

【爱智岛*站酷】AIGC大咖访谈(下)

本期直播主题:踏入超火的AIGC赛道,设计师发展有胜算吗?本期嘉宾: 秦悦庭 创意空间设计 爱智岛联合发起人 国家一级智能建造师 海辛 实验电影导演 概念美术 XR 虚拟艺术家 陈哲 高校设计学院教师 传媒学博士 AIGC数字艺术创作者 你将听到: 1、 AIGC在实践中有哪些值得关注的设计应用方向? 2、 由数字虚拟到理性现实,AIGC实践中面临的问题和挑战有哪些? 3、 在传统设计应用中,AIGC的特质和价值体现在哪里? 4、 想要在AIGC赛道中赢得更好发展,设计师需要具备什么样的技能?
4
评论
北邦

发布于 2022-12-28 17:45

AI绘画侵权吗?

By ChenAIIG(人工智能图像生成)领域在此前多年来一直默默无闻发展,但这两三个月来,其中一些AIIG的产品突破了视觉感知的奇异点——AI所制作的图像开始变得真实而具有张力。最先受到波及的是二次元插画行业。这个行业是具有一定艺术性的商业领域,但受众年轻化、大众娱乐化,相较严肃艺术的门槛较低,部分从业者感到受到了巨大冲击。加上各种立场的裹挟和涟漪。一时间抵制AI的声音在各大社交平台四起。关于抵制的声音,有三种论调。盗图偷窃论(法律层面)懒惰艺术论(艺术层面)缝合拼贴论(技术层面)在之后的两到三周,我会陆续普及一些知识,让大家对这些领域有更多的认识,也对这三种论调形成自己的看法。本期从法律层面梳理,现在开始吧!AIIG是从属于GDL(生成式深度学习)的一个子类目,虽有各种技术模型,但大致共同点是根据图像的数据集,学习具有相同标签的图片规律,从而以此生成新图像数据。著作权是属于作者的权利,但是图像抓取、机器学习⽣成、商业发布,其间各个环节是否侵权呢。对于小红书用户,图像抓取——数据集(LAION)在欧洲,机器学习⽣成平台(以midjourney为例)在美国,发布者在中国,使用上三者是一个链条,但实际在判罚上需要在各自的国家上进行讨论。本文绘从三国的法律分别梳理,并给予看法。 美国法律美国法典规定,如果“使用”可以被视为对作品的合理使用(“合理使用”是指,虽然未经授权使用他人享有版权的作品,但由于特殊的原因而不属于侵权。),则可以允许复制受版权保护的作品,但并没有明确说明什么是合理使用,需个案分析。因 AIIG 平台也是一个新兴事物,所以学界认为最接近的是美国作家协会与Google数字化图书计划的著作权案件。Google数字化图书计划在未经大量作家允许的情况下,扫描图书并且公布于网上,用户可以搜索关键词,并免费阅读上下文。2016年美国最高法院驳回美国作家协会的请求,判谷歌胜诉,理由:Google 只允许网友看到关键字附近的文字而非全文,不是单纯复制 ;图书分享的教育属性比Google的商业属性更重要;Google 未直接盈利;Google 的功能在搜索而不在阅读。其背后的逻辑是,美国支持谷歌具有变革性的数字化科研行为和普惠行为,尽管一些行为有版权模糊的地方,但这属于“合理使用”。这肯定会为机器学习研究行业提供一定的政策性信心。但AIIG与该案例并不完全相同,所以也需期待行业第一案。欧盟法律在欧盟 2001/29/EC 5 (1) 款中,规定了作者对作品拥有权利的例外使用情况——对于技术发展过程中,使用他人作品是技术发展的重要组成,且未盈利,那可进行临时性的复制行为。而德国在2017年6月发布的《使版权法与当前知识社会需求相⼀致的法案草案》中的60d2条例规定,技术研究者可以非商业地将他人作品提供给公众,供他们共同进行科学研究。60d2(3)一旦研究完成,作品应被删除。所以,在德国诞生了全球最大的图片数据集提供方LAION,它是科研型的NGO(非营利性组织),且 LAION 数据集只提供链接,当研究完毕后就会删除所有图片。以LAION在12月12日更新的5B版本为例,他们对58.5亿张图片集群进行了文本化处理,并使用算法清楚携带水印的和成人的内容。但对于作品和人像没有进行去除,因为这些内容往往不能简单的批处理,且数量过大,没有任何一个机构能够承担人力审查。当然针对欧盟的GDPR《通用数据保护条例》,如果数据集中包含欧盟公民的个人信息,个人可以向LAION申请删除。欧盟法律与LAION之间的关系暴露了一个问题,就是立法总是滞后于现实。而科技的发展加速,立法的速度就越显得捉襟见肘。中国法律共⻘团中央下属的中国⻘年报今年的文章提到:AI是非人创作者,不在中国著作权法的范围内,但AI背后的使用者和发布者是人类。中国的著作权法目前不保护风格,而是具体的元素,需要个案来看两件作品各维度相似性。对于AIIG平台行为,中国目前无法可依。在2023年1月实行的,由工信部和公安部联合推出的《互联⽹信息服务深度合成管理规定》2,主要集中在内容审核层面,而并涉及机器学习数据集层面。且主要针对深度合成服务提供者。业界公认的比较接近的案例是2018年深圳南山法院的2019粤0305民初14010腾讯AI作品著作权案(最后认定AI生成物是作品),在最⾼法知产庭⾼级法官周波的司法实践回顾中,对于AI生成物是作品的考量主要在于,腾讯的主创靠考虑了数据输入、触发条件设定、模板和语料风格的取舍等人类智力活动,这属于AI的工具化证据。但是不能以此统一决定AI生成物是否是属于作品,还是需要逐案考量。为什么midjourney敢推出商业发布之前介绍了各国法律现状,会发现目前均缺乏对于AIIG这个新事物的专项法律。所以关于著作权的判定还是基于一对一的案例讨论。Midjourney(以下省略为MJ)是率先推出商业化AI绘画服务的平台之一。作为一个大型商业机构,他的举措不可能没有法律专家的支持。通过一段时间的深度使用,笔者认为其背后的原因如下。1、其拥有一定的内容修改机制,比如他屏蔽了大量的成人内容词汇;对成人内容有一定的识别和遮盖程序;对经典IP的发布,相比其他AI绘画平台的完全呈现,MJ会有一定的算法修改;其对人脸的使用会有一个自带的混合效果,无论是引用名字还是叠图,你很难在MJ中创造出一个和某个真人完全一样的脸(不知为何,Donald Trump除外)。 2、且用户条例中写到,最终还是需要图像的发布者考量图像和可能存在的政策隐患,由使用者承担责任,平台方不承担责任。这两点的存在在各大AI绘画平台是较为少见的,以及MJ向来随时且迅速的与风险用户切断服务协议,使得它有一定的底气去推出商业发布。AI or 操作者,谁是创作者?今年11月,USCO (美国著作权局)突然撤回了9月授予 Kristina Kashtanova 利用midjourney创作的一本画册的版权注册。要求作者提供过程的细节,以表明在这本画册的创作过程中有大量的人类参与。这与中国的司法实践中著作权判定思路一致。在midjourney的商务条款中,使用者在该平台创作的图片。著作权同属于平台与用户。这点非常有趣,也代表了笔者的一些想法。在AIIG玩家当中普遍有一种感受就是,使用词的技术非常重要。这和你在创作图片的过程其实有非常大的决定关系。描述1一个苹果和描述2 Ari Aster风格的电影帧,宾得K1相机广角特写,一个枯萎的南美蛇果上一滴黑色液体滴落,镜面反光,辛烷渲染,C4D,1/100 快门,ISO100,15mm焦距,柔光镜50%权重,舞台光,空气尘埃,宝利来风格25%权重,巴洛克风格居家背景。4K,HDR,3:2画幅并通过多次的词句斟酌,最后选择最优秀的画面。它们都是AI绘画,但是其中的人类智力成分是不一样的。用户在创作作品的时候也是一个与AI争夺创作权的角力过程。这种角力的胜负一定程度也是中、美司法实践中的重要参考。当然,10 月底,美国参议员 Thom Tillis、Chris Coons向 USPTO/USCO 美国专利商标/著作权局,询问在是否能在2023 年 10 月建立人工智能联合委员会,在USPTO 和 USCO的回复信中,他们谈到了他们在人工智能领域已经开展的工作,以及强调需要更多资金来实现参议院的目标(乐)。这说明在很长一段时间内,AI绘画的著作权归属依旧会在个案的探讨之间解决。AI 绘画创作者与 AI 绘画反对者的⾏动指南宫崎骏在之前与一位AI动画创作者交流。这位创作者制造了一个非常丑陋的奇行种,并向大师炫耀着这门技术的神奇。大师的反击让他经历了人生最沉重的一次社会性死亡。宫崎骏说,“如果你真的想制作令人毛骨悚然的东西,你可以继续去做。我根本不想将这项技术融入我的工作中。我强烈地感到这是对生命本身的侮辱。”对于ai绘画创作者,过于利用工具的属性,去快速盈利,菏泽而渔,或者创造出一些耸动的内容,并不能够让这个行业变得更好。具有一定影响力的AI创作者有责任去推动这个工具的发展。扩展创作的边界。另外,对于AI绘画反对者,我们尊重文化守成主义者的顾虑。但是绘画反对者需要知道目前AI绘画从法理层面不具备任何的违法行为,只能进行一种道德谴责。而道德谴责,没有统一的道德标准,也不应该以非道德的卢德主义者的形式呈现。AI绘画的反对者和创作者应该从更大的层面上联合起来去推动这个行业的健康发展。形成合力,促进立法,从而让各个人群都能够回归到创作本身上来。而不是在散乱的无效拉扯。Reference:17 USC §107,https://www.copyright.gov/title17/title17.pdf美国作家协会与Google数字化图书计划的著作权案件,https://en.wikipedia.org/wiki/Authors_Guild,_Inc._v._Google,_Inc 《欧洲议会和理事会关于协调信息社会著作权及相关权部分规定的指令(第2001/29/EC号)》,https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=celex%3A32001L0029《使版权法与当前知识社会需求相⼀致的法案草案》,https://www.bmj.de/SharedDocs/Gesetzgebungsverfahren/Dokumente/GesetzBeschlussBT_UrhWissG_eng.pdfLAION-5B说明,https://laion.ai/blog/laion-5b/中国青年报,AI绘画野蛮⽣长现隐忧 是“拼接”还是算法⽣成?www.rmzxb.com.cn/c/2022-12-27/3264301.shtml《互联⽹信息服务深度合成管理规定》,www.gov.cn/zhengce/zhengceku/2022-12/12/content_5731431.htm⼈⼯智能与著作权保护 ——中国法院的司法实践 中华⼈民共和国最⾼⼈民法院知识产权审判庭⾼级法官 周 波,https://www.wipo.int/export/sites/www/about-ip/en/artificial_intelligence/conversation_ip_ai/pdf/ms_china_1_zh.pdfMidjourney,版权条例 https://midjourney.gitbook.io/docs/terms-of-serviceUSCO (美国著作权局)突然撤回了9⽉授予 Kristina Kashtanova 的版权注册https://ipwatchdog.com/2022/11/01/us-copyright-office-backtracksregistration-partially-ai-generated-work/USPTO和USCO的回信https://www.copyright.gov/laws/hearings/Letter-toUSPTO-USCO-on-National-Commission-on-AI-1.pdf宫崎骏痛批智协派,https://www.youtube.com/watch?v=ngZ0K3lWKRc&t=83s
5
评论
取消
DoDo提供建站支持